摘要: 移步bdata-cap.com Faiss 快速入门(1) Faiss 更快的索引(2) Faiss低内存占用(3) Faiss 构建: clustering, PCA, quantization(4) 如何选择Faiss索引(5) 官网地址 ,你也可以访问我的Github,运行代码。 本文是基于官 阅读全文
posted @ 2020-04-02 22:06 船长&CAP 阅读(3617) 评论(0) 推荐(0) 编辑
摘要: 本文内容 测试数据 字段属性 按多行解析运行时日志 把多行日志解析到字段 参考资料 在处理日志时,除了访问日志外,还要处理运行时日志,该日志大都用程序写的,比如 log4j。运行时日志跟访问日志最大的不同是,运行时日志是多行,也就是说,连续的多行才能表达一个意思。 本文主要说明,如何用 multil 阅读全文
posted @ 2016-06-01 13:51 船长&CAP 阅读(7123) 评论(2) 推荐(3) 编辑
摘要: 原文地址 本文内容 软件 步骤 控制相关性 总结 参考资料 本文介绍如何用带 Apache Mahout 的 MapR Sandbox for Hadoop 和 Elasticsearch 搭建推荐引擎,只需要很少的代码。 This tutorial will give step-by-step i 阅读全文
posted @ 2016-05-24 10:44 船长&CAP 阅读(5147) 评论(0) 推荐(0) 编辑
摘要: 官网地址 本文内容 语法 测试数据 可配置选项 参考资料 date 插件是日期插件,这个插件,常用而重要。 如果不用 date 插件,那么 Logstash 将处理时间作为时间戳。时间戳字段是 Logstash 自己添加的内置字段 @timestamp,在ES中关于时间的相关查询,必须使用该字段,你 阅读全文
posted @ 2016-05-18 16:38 船长&CAP 阅读(3433) 评论(1) 推荐(1) 编辑
摘要: 官网地址 本文内容 语法 测试数据 可选配置项 mutate 插件可以在字段上执行变换,包括重命名、删除、替换和修改。这个插件相当常用。 比如: 你已经根据 Grok 表达式将 Tomcat 日志的内容放到各个字段中,想把状态码、字节大小或是响应时间,转换成整型; 你已经根据正则表达式将日志内容放到 阅读全文
posted @ 2016-05-17 17:24 船长&CAP 阅读(7177) 评论(3) 推荐(2) 编辑
摘要: 本文内容 语法 参数 描述 选项 主机标识符 输出格式 示例 参考资料 先发出来,然后慢慢翻译~ 语法 jps [ options ] [ hostid ] 参数 options命令行参数。 hostidThe host identifier of the host for which the process rep... 阅读全文
posted @ 2016-05-16 14:44 船长&CAP 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 原文地址:Java 7 jstat 本文内容 语法 参数 描述 虚拟机标识符 选项 一般选项 输出选项 示例 先发出来,然后慢慢翻译~ 语法 jstat [ generalOption | outputOptions vmid [interval[s|ms... 阅读全文
posted @ 2016-05-13 13:42 船长&CAP 阅读(768) 评论(0) 推荐(0) 编辑
摘要: 本文内容 背景 ES集群中第一个master节点 ES slave节点 迁移到:http://www.bdata-cap.com/newsinfo/1712679.html 本文总结 Elasticsearch(以下简称ES)搭建集群的经验。以 Elasticsearch-rtf-2.2.1 版本为 阅读全文
posted @ 2016-05-03 13:44 船长&CAP 阅读(3562) 评论(0) 推荐(0) 编辑
摘要: 迁移到:http://www.bdata-cap.com/newsinfo/1741432.html 本文内容 用户评分表 曼哈顿(Manhattan)距离 欧式(Euclidean)距离 余弦相似度(cos simliarity) 推荐算法以及数据挖掘算法,计算“距离”是必须的~最近想搭一个推荐系 阅读全文
posted @ 2016-04-21 15:14 船长&CAP 阅读(3633) 评论(2) 推荐(1) 编辑
摘要: 本文内容 最近看《写给程序员的数据挖掘指南》,研究推荐算法,书中的测试数据集是 Book-Crossing Dataset 提供的亚马逊用户对书籍评分的真实数据。推荐大家看本书,写得不错,立刻就能对推荐算法上手,甚至应用到你的项目中。 Book-Crossing Dataset 提供两种格式的数据集:CVS 格式和 SQL dump,问题是: 如果你有 UE 打开 cvs 文件... 阅读全文
posted @ 2016-04-20 13:09 船长&CAP 阅读(2319) 评论(0) 推荐(0) 编辑
摘要: 本文内容 项目结构 AngularJS datepicker AngularJS+jQueryUI datetimepicker 本文介绍 AngualrJS datetimepicker 控件。说明三种控件:Angualr 官网提供的 datepicker,jQuery datetimepicker 以及 Angular+jQueryUI 的 datetime... 阅读全文
posted @ 2016-04-15 16:00 船长&CAP 阅读(15929) 评论(0) 推荐(0) 编辑
摘要: 本文内容 项目结构 运行结果 index.html mymodal.js 参考资料 本文讲解 Angular JS 实现模式对话框。基于 AngularJS v1.5.3、Bootstrap v3.3.6 和 ui-bootstrap-tpls 0.11。ui-bootstrap-tpls 是 AngularJS 利用 bootstrap 封装的... 阅读全文
posted @ 2016-04-07 10:25 船长&CAP 阅读(9852) 评论(0) 推荐(0) 编辑
摘要: 原文地址 本文介绍如何安装和配置 AngularJS Eclipse。AngularJS Eclipse 插件是基于强大的 JavaScript 推断引擎(javascript inference engine)Tern.js, 它由 JavaScript 编写。若在 java 环境下使用该引擎,需要使用 tern.java。它用 node.js 执行 tern.js。这就是为什么你在下面将看到... 阅读全文
posted @ 2016-03-28 22:32 船长&CAP 阅读(23773) 评论(1) 推荐(1) 编辑
摘要: 内容 安装 RVM 安装 Ruby 和 Gems 安装 Rails 安装 jls-grok Ruby grok 解析 调试 grok 迁移到:http://www.bdata-cap.com/newsinfo/1712686.html 注意:不要用 root 执行以下操作。 用 logstash 收 阅读全文
posted @ 2016-03-23 12:08 船长&CAP 阅读(5866) 评论(0) 推荐(0) 编辑
摘要: 迁移到:http://www.bdata-cap.com/newsinfo/1712690.html 上一篇文章《安装 logstash 2.2.0、elasticsearch 2.2.0 和 Kibana 3.0》,介绍了如何安装 Logstash、Elasticsearch 以及用 Python 阅读全文
posted @ 2016-03-14 17:26 船长&CAP 阅读(1179) 评论(0) 推荐(0) 编辑
摘要: 本文内容 Elasticsearch logstash Kibana 参考资料 迁移到:http://www.bdata-cap.com/newsinfo/1712695.html 本文介绍安装 logstash 2.2.0 和 elasticsearch 2.2.0,操作系统环境版本是 CentO 阅读全文
posted @ 2016-03-01 16:31 船长&CAP 阅读(5954) 评论(2) 推荐(0) 编辑
摘要: 原文地址 这篇文章,采用 Markdown 方式,写的还是比较实在的,要是有架构图就好了。 Pinterest 是图片版的 Twitter,用户把自己感兴趣的东西用图钉(Pins)钉在钉板(PinBoard)上,采用 Pinterest 瀑布流的形式展现图片内容,用户无需翻页,新图片不断地自动加载到 阅读全文
posted @ 2016-02-13 21:18 船长&CAP 阅读(663) 评论(0) 推荐(0) 编辑
摘要: 原文地址 本文内容 并行数组(Parallel Array) 并行向量(Parallel Vector) 并行范围(Parallel Range) 并行哈希表(Parallel Hash Tables) 并行散列 Tries(Parallel Hash Tries) 并行并发 Tries(Paral 阅读全文
posted @ 2016-02-12 17:42 船长&CAP 阅读(1497) 评论(0) 推荐(0) 编辑
摘要: 原文地址 本文只是带你进入 Scala 的世界,包括安装、不可变量 val、可变量 var、定义类、集合(包括列表(list)、集(set)、映射(map))以及集合遍历和集合库(能达到并行/并发效果)。 题外话,如果 Java 争气的话,还就真不会出现像 Scala 这些语言。对于函数式编程风格的支持,尤其是对于 Lambda 表达式的支持,能减少必须要编写的逻辑无关的样板代码,让... 阅读全文
posted @ 2016-02-12 12:04 船长&CAP 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 说到开发一个运行在现代网络中的网站:Web开发人员需要选择虚拟主机平台和底层数据存储,准备编写HTML、CSS和JavaScript用的工具,要有设计执行方式,以及一些可用的JavaScript库/框架。在将任务分解为这几步之后,接下来要做的就简单多了,可以去网上找文章,浏览论坛,看看那些能提供更好 阅读全文
posted @ 2016-02-12 09:20 船长&CAP 阅读(454) 评论(0) 推荐(0) 编辑
摘要: 官网地址 本文内容 简介 Futures 阻塞 异常 Promises 工具 最近看了《七周七语言:理解多种编程泛型》,介绍了七种语言(四种编程范型)的主要特性:基本语法,集合,并行/并发,其中就有 Scala。你不能指望这种书全面介绍,因为其中任何一门语言都够写一本书了~ 我比较关注并行/并发,但是书中关于 Scala 的并发部分——Actor,可代码编译不通过,官网标注“De... 阅读全文
posted @ 2016-02-11 20:52 船长&CAP 阅读(2462) 评论(0) 推荐(0) 编辑
摘要: 本文内容 创建 MySQL 用户和组 解压 MySQL 源代码包 生成配置安装文件 编译和安装 MySQL 配置文件 创建 MySQL 授权表 MySQL 目录授权 启动 MySQL 验证 MySQL 安装 设置 MySQL 访问权限 MySQL 开机自动启动 设置环境变量 参考资料 最... 阅读全文
posted @ 2016-02-03 12:12 船长&CAP 阅读(835) 评论(0) 推荐(0) 编辑
摘要: Github 地址 项目背景 最近做个项目,需要进行试驾分析,所谓“试驾”,是指顾客在 4S 店指定人员的陪同下,沿着指定的路线驾驶车辆,从而了解这款汽车的行驶性能和操控性能。通常,无论是车厂(制造商),还是4S店(经销商),对车辆的试驾都比较感兴趣。从车厂的角度,不仅仅可以知道某辆车是否受欢迎,还 阅读全文
posted @ 2016-01-29 12:21 船长&CAP 阅读(862) 评论(0) 推荐(0) 编辑
摘要: 本文内容 问题 存储结构 算法1:简单SQL查询 算法2:均匀分区设计 算法3:树形分区设计 算法4:积分排名数组 该文具体出自哪里,不是很确定,而我是在某个微信公众号上看到的~文中的内容比较有启发性的~ 问题 某海量用户网站,用户拥... 阅读全文
posted @ 2015-11-23 17:08 船长&CAP 阅读(724) 评论(0) 推荐(1) 编辑
摘要: 原文地址 本文内容 前言 线程池意义 线程池技术要点 小节 参考源码 但凡是一个框架(“服务”框架),基本都会涉及线程池问题。虽然你可能没有直接使用它,但这是因为框架帮你完成了这部分工作。 说,为什么需要线程池呢?试想,现在但凡是写一个服务程序,如果不采用并发或并行的方式,都有点对不起4核、8核,甚 阅读全文
posted @ 2015-11-16 10:39 船长&CAP 阅读(974) 评论(0) 推荐(0) 编辑
摘要: 原文地址 简单易用,Storm让大数据分析变得轻而易举。 如今,公司在日常运作中经常会产生TB(terabytes)级的数据。数据来源包括从网络传感器捕获的,到Web,社交媒体,交易型业务数据,以及其他业务环境中创建的数据。考虑到数据的生成量,实时计算(real-time computation... 阅读全文
posted @ 2015-11-02 17:20 船长&CAP 阅读(1877) 评论(0) 推荐(0) 编辑
摘要: 英文原文地址 中英文对照地址 History of Apache Storm and lessons learned ——项目创建者 Nathan Marz Apache Storm 最近成为了ASF的顶级项目,这对于该项目和我个人而言是一个重大的里程碑。很难想像4年前Storm只是我脑海中的一个想法,但现在却成为了一个有着大社区支持并被无数企业使用的繁荣项目。在此我将在本文中回首Stor... 阅读全文
posted @ 2015-10-30 12:07 船长&CAP 阅读(1031) 评论(0) 推荐(1) 编辑
摘要: 原文地址 实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案进行探讨,我却发现很多企业实际上尚未就此规划出明确发展思路、甚至没能真正意识到其中蕴含的巨大效益。 为什么会这样?一大原因在于目前市场上的实时商务智能与分析工具仍然非常有限。传统数据仓库环境针对的主要是批量处理流程,这类方案要么延迟极高、要么成本惊人——... 阅读全文
posted @ 2015-10-30 11:59 船长&CAP 阅读(1622) 评论(0) 推荐(0) 编辑
摘要: 原文地址 迁移到:http://www.bdata-cap.com/newsinfo/1741515.html 本文内容 ECMAScript 发生了什么变化? 新标准 版本号6 兑现承诺 迭代器和for-of循环 生成器 Generators 模板字符串 不定参数和默认参数 解构 Destruct 阅读全文
posted @ 2015-10-26 14:33 船长&CAP 阅读(5954) 评论(0) 推荐(1) 编辑
摘要: 近日,一名有超过15年软件开发经验的软件开发人员在Hacker News上提出了一个问题:如何才能成为一个好的技术领导者? 该问题一经提出,不到一天的时间获得了160多条回复。关于技术领导者应该具备的品质和管理技巧,网友们提出了各自的看法和建议,本文择要归纳如下。 迁移到:http://www.bd 阅读全文
posted @ 2015-10-22 17:33 船长&CAP 阅读(530) 评论(1) 推荐(1) 编辑
摘要: 原文地址 LinkedIn started in 2003 with the goal of connecting to your network for better job opportunities. It had only 2,700 members the first week. F... 阅读全文
posted @ 2015-10-19 17:21 船长&CAP 阅读(625) 评论(0) 推荐(0) 编辑
摘要: 原文地址 这篇文章回顾的不错~ Neo,这就是让我们心烦的问题 为什么AWS有这么多的数据存储选项?我应该用哪个?这些是客户常见的问题。在这分成三部分的博客系列中,我将试图做一些澄清。在第一部分,我会论述高可用性的基础,以及为什么冗余是实现高可用性的常用方法。我也简要地提到在数据层加入冗余会带来新的 阅读全文
posted @ 2015-10-19 17:00 船长&CAP 阅读(565) 评论(1) 推荐(2) 编辑
摘要: 原文地址 当我们分析一些流行网站,如GitHub和StackOverflow时,发现JavaScript、Java、PHP 和 Python 都是一些很不错的选择。 或者,也许我们还可以从与工作相关的指标来决定要学习的“最佳”技术,例如需求和薪资?职业规划公司Gooroo通过仔细查看了美国、英国和澳大利亚的超过50万份的IT职位空缺,得到了下面这份《2015年的工资和供需报告》。 需求... 阅读全文
posted @ 2015-10-19 13:56 船长&CAP 阅读(775) 评论(0) 推荐(1) 编辑
摘要: 要是有这架构,局部代码写得再烂,那都不是问题~Google 就曾经说,如果采用 MapReduce,再烂的搜索算法,也能很快得到结果~ 美团网和大众点评网在10月8日中午联合发布声明,宣布达成战略合作,两者将共同成立一家新公司。两者也在InfoQ及其组织的大会上进行过多次分享,我们将对美团和大众点评使用的技术进行回顾,来看看这两家电商巨头的技术实力。 美团和大众点评都是国内O2O领域的... 阅读全文
posted @ 2015-10-16 16:07 船长&CAP 阅读(1490) 评论(1) 推荐(0) 编辑
摘要: 本文内容 进程 线程 协程 Go 中的 goroutine 参考资料 最近,看一些文章,提到“协程”的概念,心想,进程,线程,协程,前两个很容易,任何一本关于操作系统的书都有说,开发时也经常用,但是协程呢?之前也遇到这个词,但是今天,查了一下资料。下面是一个人的总结。 迁移到:http://www. 阅读全文
posted @ 2015-10-13 17:30 船长&CAP 阅读(1102) 评论(0) 推荐(1) 编辑
摘要: 迁移到:http://www.bdata-cap.com/newsinfo/1741386.html 原文链接: BASE: An Acid Alternative Pdf下载链接: Base 数据库 ACID,都不陌生:原子性、一致性、隔离性和持久性,这在单台服务器就能搞定的时代,很容易实现,但是 阅读全文
posted @ 2015-10-13 16:17 船长&CAP 阅读(2267) 评论(0) 推荐(0) 编辑
摘要: 迁移到:http://www.bdata-cap.com/newsinfo/1741388.html 为什么要 SSO? 企业的信息化过程是一个循序渐进的过程,这就造成在企业的不同时期,根据业务和发展需要,构建了多个应用程序,而这些应用程序在功能、设计和技术可能都有所不同,就形成了各自独立的用户库和 阅读全文
posted @ 2015-10-13 14:24 船长&CAP 阅读(8743) 评论(0) 推荐(1) 编辑
摘要: 随着网站的功能和用户越来越多,单机器服务部署的Web应用已经不能再支持了。这时候就需要优化或调整架构,具体怎么优化,或先优化哪部分,这取决于网站的具体情况, 并非总是一个套路。 如根据使用情况得知,数据库压力大,则就可以先设施读写分离,分库分表,是垂直划分(按业务划分), 还是水平划分(如用户... 阅读全文
posted @ 2015-10-13 14:11 船长&CAP 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 原文地址 开源(Open Source)对大数据影响,有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用;另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”工具涌现,乱花渐欲“迷... 阅读全文
posted @ 2015-10-13 12:52 船长&CAP 阅读(1183) 评论(6) 推荐(2) 编辑
摘要: 原文地址 去年,之前的同事,喜欢看小说,就想自己没事搞个网站,我告诉他,先用爬虫把别人网站的小说下载下来,放到自己的网站里~我同事编码能力很强,学东西相当快,给他大概讲一下,帮他下载个用 http 协议下载网站的程序集(.net)就可以,但是,时不时,Web 会拒绝,后来,我说,http 协... 阅读全文
posted @ 2015-10-12 17:26 船长&CAP 阅读(2087) 评论(0) 推荐(1) 编辑
免费流量统计软件